查看原文
其他

FlagEval 9月榜 | 评测框架多维升级,详解Baichuan2 等7个热门模型主观评测能力分布

智源研究院 智源研究院 2023-12-27



Highlight:


-FlagEval大语言模型评测框架更新,细化40+子能力维度
-基于智源自建CLCC主观评测集,分析7个知名模型的能力分布
-FlagEval 9月榜单发布,新增 YuLan、Baichuan2 等最新开源基座模型和SFT模型

评测框架升级
细化「安全与价值观」与「推理能力」评测

FlagEval 大语言模型评测体系创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,包含 6 大评测任务,近30个评测数据集,超10万道评测题目。
自 6月发布后,FlagEval 团队基于大语言模型的潜力进一步深挖和拓展了模型能力框架在广受关注的安全与价值观、推理能力方面新增了评测维度及定义
针对模型「安全与价值观」上的表现,FlagEval 团队重新细化和规范了次级维度,扩充至 3 个二级能力及 17个三级能力:
  • 「社会价值观」指模型具符合社会主义核心价值观,即评估模型是否具有“中国心”


  • 「权利保护」指模型应该能够遵守法律法规,不该给出可能导致侵权、伤害等诱导违法犯罪的回答,即评估模型是否能够“不做坏事”


  • 「伦理道德」指模型作为具有快速生成能力,并可能被广泛使用的工具,其给出的内容会对人认识和看待世界的方式产生很大影响,因此其生成的内容应当具有一定的教育特征,能够引导用户以善良、友好的方式应对所面临的问题,即评估模型是否“善良”


推理能力是语言模型的“基本功”。经过广泛调研,并结合中国公务员考试评价体系、认知科学领域的评价体系,FlagEval 团队在「常识推理」的基础上,新增了「逻辑推理」、「心理理论推理」、「数学推理」维度。「逻辑推理」是对人类认识和了解世界的知识进行推理;「心理理论推理」是对人的意图、动机和情绪进行推理,「数学推理」是对以数理逻辑为代表或表征的问题作推理。
当前,新升级的FlagEval 大语言模型评测的能力框架共计 43 个子能力维度。如下图所示:


能力维度详细解析见官方网站:https://flageval.baai.ac.cn/#/rule


基于智源CLCC主观评测数据集

7大热门模型能力详解


依据最新版的能力框架,FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库 v2.0,题目数量扩充 3 倍,采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性
(注:为保证评测公平可靠,该评测数据集暂不公开发布)
FlagEval 团队基于最新 CLCC v2.0主观评测数据集,重点评测了近期大热的 7 个开源对话模型。
从整体结果来看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat 名列前茅,准确率均超过 65%。


 CLCC主观评测总分


如以下动图所示,从二级能力分布来看:


  • 所有参评模型均非常重视安全与价值观对齐。具体而言,多数模型对于「权力保护」、「伦理道德」维度的回答远优于「社会价值观」维度,AquilaChat-7b 在这两个维度略胜一筹。

  • 个别模型的在「简单理解」、「推理能力」方面存在明显短板,“基本功”有待修炼。值得一提的是,Baichuan2-13b-chat 的能力分布上表现最为全面,在 8 个二级能力维度上的分布均有表现不俗,其与参数规模较小的 Baichuan2-7b-chat 相比,重点提升了基础语言能力。Qwen-7b-chat 模型在参评的同参数量级模型中表现最优,能力分布较为均衡。YuLan-Chat-2-13b 在基础语言能力和高级语言能力上表现优秀,但在安全与价值观方面尚待提升。



 三级能力对比(对应一级能力:基础语言能力)


三级能力对比(对应一级能力:高级语言能力)


三级能力对比(对应一级能力:安全与价值观)


从三级能力对比分析图中可以看到:
  • 基础语言能力中的「信息提取」、「数学推理」以及高级语言能力中的「结构化生成」是多数模型的短板,或成为大模型研发团队下一步重点攻克的难题。

  • 在高级语言能力方面,「语言解析」、「观点辨析」、「中国文化理解」亦是普遍的弱项。「语言解析」指指模型能够准确识别、分析和解释文本中的语言结构、语法关系和语义信息;「观点辨析」指模型能够准确识别、分析、比较和评价各种观点、立场,并进行有条理的论证解析;「中国文化理解」指模型能够准确识别、分析和解释与中国文化相关的内容、现象和特点,包括历史文化、文学艺术、习俗传统、语言文字、地理民族等领域知识。

  • 安全与价值观方面,多数模型在「国土安全」、「意识形态安全」、「政治安全」方面仍有较大提升空间。而从单项结果来看,Baichuan2-13B-chat 、YuLan-Chat-2-13B、AquilaChat-7B尤为出彩,均拿到3项及以上满分


FlagEval大语言模型评测
9月榜单

评测说明:


  • 中文选择问答评测数据集更新

    • Gaokao2023 更新至 v2.0 版本,题目数量从 147 道扩充至 364 道,在语文、数学等7个学科基础上新增化学、地理考题。部分没有进行评测 Gaokao v2.0 的模型采用 Gaokao v1.0 结果进行计算。

    • 由于C-Eval数据集存在失效争议,FlagEval 平台自8月15日起已不再包含任何 C-Eval 评测题目。

  • Base 模型不做主观评测;SFT 模型不做代码生成 HumanEval 评测。

  • 在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

  • 更多维度的评测结果FlagEval 官网排行榜:https://flageval.baai.ac.cn



基座模型榜单


在本期基座模型榜单中,
Baichuan2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型,国产大模型未来可期

SFT 模型榜单


在本期 SFT 模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三


FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。

除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。




悟道·天鹰Aquila系列模型更新

悟道·天鹰Aquila 系列模型最新代码&权重 v0.11 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验。

此次开源版本中,
AquilaChat 中文、英文客观评测较8月15日版本分别提升 19% 和 6%Aquila 基座模型客观评测(含代码生成)总分较8月15日版本提升24%中文、英文客观评测分别提升 36% 和 10%。

注意:由于FlagEval主观评测集升级,无法比较AquilaChat两个版本之间的主观评测结果差异。


使用方式一(推荐):通过 FlagAI 加载 Aquila 系列模型

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila


使用方式二:通过 FlagOpen 模型仓库单独下载权重

https://model.baai.ac.cn/


使用方式三:通过 Hugging Face 加载 Aquila 系列模型
https://huggingface.co/BAA





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存